Day29 藉由影片學習Python網路爬蟲-PTT爬蟲、Hahow爬蟲、Yahoo電影爬蟲實作

2024 iThome 鐵人賽

DAY 29

Python

自主學習Python網路爬蟲-PTT爬蟲、Hahow爬蟲、Yahoo電影爬蟲實作系列第 29 篇

16th鐵人賽

zhenn

2024-10-09 21:58:46

420 瀏覽

分享至

今天要分享的是Hahow爬蟲-學會如何爬取Ajax網頁！
Ajax網頁流程如下：
使用者端訪問Hahow網站 => 伺服器端回傳空的HTML(無資料) => 使用者端透過JavaScript發送Ajax請求 => 伺服器端回傳資料，JavaScript用此資料渲染畫面
首先先在Hahow網站找到要爬取的課程資料 => 點擊右鍵找到開發者工具 => Network => Fetch/XHR => 開始逐一尋找API => Preview => data => courseData => products...

開新分頁，貼上複製的網址會跑出以下亂碼，後複製亂碼

在新分頁查詢"JSON Formatter"後把複製後的亂碼貼上並點擊Process

後會整理出以下畫面，可以點選全螢幕觀看整個JSON檔

接下來是在pycharm中撰寫程式碼爬取網頁資料，程式碼如下

執行結果如圖(Excel檔)